모델링 :: 개발참고자료[SSISO Community]

SSISO 카페

SSISO Source

SSISO 구직

SSISO 쇼핑몰

SSISO 맛집

추천검색어 : JUnit Log4j ajax spring struts struts-config.xml Synchronized 책정보 Ajax 마스터하기

우측부분

개발참고자료

[1]

등록일:2008-04-08 15:19:48

(0%)
작성자:

제목:모델링

1. 개요

정보검색에서 모델링이라 함은 거의 대부분 순위부여 알고리즘과 관련이 있다. 질의가 던져진 후 관련된 많은 문서들을 어떤 순서로 배열하여 사용자에게 보여줄 것인가에 대한 많은 연구자들의 연구결과 다양한 방법론들이 생겨나게 되었고, 그중에 몇몇은 아주 유용하게 상용화되어 현재까지 애용되고 있다.

컴퓨터 능력이 지금과 비교하면 아주 미약했던 30 ~ 40여년 전에 이미 불리언 시스템이 개발되었다. 이런 이유로 사용자가 질의를 할 때 제한된 구문을 사용해야만 검색하고자 하는 문헌수를 조절할 수 있었고, 검색된 문헌조차도 사용자 질의와 관련 있는 순서로 되어 있지 않았다. 불리언 시스템이 도서관 사서나 훈련받은 전문사용자에게 매우 강력한 온라인 탐색기능을 제공하였지만, 대부분의 단순사용자, 즉 시스템을 자주 사용하지 않는 사용자에게는 형편없는 서비스를 제공하였다.(Cleverdon 1983). 이런 사용자들은 탐색하고자 하는 데이터집합에 있는 용어는 잘 알지만, 훈련과 연습이 부족하여 불리언 시스템에 필요한 복잡한 질의를 사용하여 좋은 결과를 도출하기는 어려웠다. 검색하는데 있어서 순위부여 방법을 사용하면 좀더 사용자 위주의 검색시스템이 될 수 있다. 이런 시스템에서 사용자는 불리언 연결어가 아닌 문장이나 구와 간단한 질의를 입력해서 관련된 순서로 순위가 부여된 문헌목록을 검색할 수 있다.

질의에서 사용한 모든 용어를 이용해서 문헌을 검색하고 통계적 용어가중치에 의해 순위가 부여된 결과를 얻기 때문에 사용자에게는 자연어/순위부여 접근법이 훨씬 유용하다. 이런 방법을 사용하게 되면 사용자가 실수하기 쉬운 불리언 구문을 사용하지 않아도 되고, 심지어는 질의어를 잘못 사용했을 경우에도 임의의 결과를 얻을 수 있따. 순위부여 접근법은 사용자가 불리언 논리로 표현하기 어려운 복잡한 질의에 대해서도 유용하다. 예를 들어, “의료 데이터베이스에서 인간적 요소와 시스템 성능” 이라는 질의를 불리언논리로 표현하기는 어렵다. 이런 질의는 어떤 명확한 불리언 구문 없이 자주 사용되는 단어를 많이 포함하기 때문이다. 순위부여 방법을 이런 질의에 사용하면 좋은 결과를 얻을 수 있다.

2. 순위부여 모델과 실험

1957년에 Luhn은 그의 논문에서 문헌 정보를 검색하는 통계적인 접근 방식을 제시하였다. 그는 “두개 이상의 정보표현이 주어진 원소와 분포면에서 서로 일치한다면, 그것들은 유사한 정보를 표현할 확률이 더욱 높다”라고 주장하였다. Maron과 Kuhns는 용어가중치의 크기 부여에 관한 소규모의 실험을 통해서 Luhn의 이론을 발전시켰다. 정보검색 연구분야에서는 지난 30여년 동안 순위부여 기술에 대한 여러 모델을 개발해 왔다. 순위부여 검색시스템을 구현하기 위해서 순위부여 기술과 관련된 이론적인 모델을 자세히 이해할 필요는 없지만, 오늘날 사용하고 있는 순위부여 기술을 개발하는 데 공헌한 중요한 검색실험에 대해 이해한다면 큰 도움이 될 것이다.

이러한 모델에서 제시하는 모든 실험결과에서는 표준 테스트 장서를 사용하고 표준 조회율 및 정확도 측정법을 사용하였다. 이런 실험을 통해서 순위부여에 대한 지식의 발달을 이해할 수 있도록 대략적이나마 시대순으로 결과치가 제시되었다.

순위부여 모델은 크게 두 가지로 나눌 수 있다. 하나는 각 문헌에 대한 질의에 순위를 부여하는 것이고, 다른 하나는 한 문헌과 관련이 있는 집합 전체에 대한 질의에 순위를 부여하는 것이다. 각 문헌에 대한 질의에 순위를 부여하는 순위부여 모델로는 여러가지 이론적인 모델이 제시되긴 하였지만 크게 벡터공간 모델과 혹률 모델로 나눌 수 있다.

3. 벡터 공간 모델

문헌과 질의는 각각을 하나의 벡터로 표현할 수 있으며, 이 벡터를 n차원 벡터공간으로 생각할 수 있다. 여기서 n은 데이터 집합에 있는 유일한 용어의 수와 일치한다. 벡터 사이의 코사인 값을 측정하는데 쓰이는 코사인 상관계수를 바탕으로 하는 벡터부합연산을 사용하여 문헌과 질의의 유사성을 계산할 수 있다. 이 유사성을 사용하여 문헌에 대한 순위를 부여할 수 있다.

벡터 모델은 이진 가중치 사용이 너무 제한적이어서 질의나 문헌의 색인어에 비이진 가중치를 할당함으로써 전체 유사도를 계산하게 된다. 결국 용어 가중치를 사용자 질의와 시스템에 저장되어 있는 각 문헌과의 유사도를 계산하여 검색된 문헌을 유사도 값의 내림차순으로 정렬함으로써 질의 용어에 부분 정합되는 문헌을 포함시킨다. 결과적으로 순위화된 문헌 집합이 그대로 일치하는 순서로 보면 되며, 불리언 모델에서보다 사용자 정보 요구에 더 잘 맞게 된다.

유사도 계산 방법은 TF-IDF 방법과 질의 용어 가중치 방법을 적용한다..

벡터모델에서 용어, 문헌쌍 의 가중치 는 양의 비이진 값이며, 질의 색인어도 가중치를 가진다. 의 가중치 이라 하면, 질의벡터 는 로 정의되며, 여기서 t는 시스템내의 전체 색인어의 수이다. 문헌 벡터는 로 표현된다. 따라서, 문헌 와 사용자 질의 q는 다음 그림과 같이 t차원 벡터로 표시된다.

벡터모델에서 문헌 와 질의 q의 유사도 측정은 두 벡터 와 의 상관도로 구할 수 있다. 이 상관도의 예로 두 벡터간의 사이각의 코사인 값으로 정량화 할 수 있다. 즉 문서의 유사도는 다음 수식으로 결정한다.

여기서, 와 는 문헌과 질의 벡터의 노름(norm)값으로, 요소는 모든 문헌에 동일하기 때문에 문헌 순위화에 아무런 영향을 못 미치며, 는 문헌 공간의 정규화를 제공한다.

와 가 0보다 크거나 같은 값을 갖기 때문에 값은 0과 1의 사이의 값이 된다. 따라서 벡터 모델은 문헌이 관련있나 없나만을 예측하기보다는 질의와의 유사도 값에 따라 순위를 매기기 때문에, 부분적으로 질의에 정합되는 문헌이라도 검색되며, 또, 일정한 유사도 값 이상의 문헌만을 검색하기 위하여 값에 임계치를 둘 수도 있다. 그러나 순위 계산을 위해서는 어떻게 색인어 가중치를 얻는가를 먼저 규정할 필요가 있다.

색인어 가중치는 여러 방법으로 계산될 수 있는데, Salton과 McGill[698]이 다양한 용어-가중치 기법에 대해 조사했다. 여기서는 이들을 자세히 다루는 대신 가장 효과적인 용어 가중치기법의 주요 아이디어 설명에 집중할 것이며, 이 아이디어는 클러스터링 기법의 기본 원칙과 연관되어 있다.

색인어 가중치에 대해서는 다음 강좌에 바로 이어질 것이다.

벡터스페이스 모델 자체만으로도 문서의 랭킹은 계산되어지게 된다. 그러나 사용자 요구에 맞는 정보를 추출하려면 이것이 부적절한 경우가 있다. 예를 들어 자연어 처리를 위해 계산된 결과는 간혹 사용자가 요구하는 것보다 다른 결과를 추출할 수 있다. 그래서 다양한 방법으로 문서의 순위를 조절할 수 있어야 한다.

적용할 만한 idea로 co-occurrence를 활용하는 방안이 있다. 이 방법은 우선순위 결정시 유사도 값을 먼저 고려하는 것이 아니라 입력된 키워드가 일치된 최장 개수를 사용하여 먼저 정렬을 하고 같은 순위를 같는 집합 내에서 다시 유사도 값을 사용하여 순위를 결정하는 방법이다. 이 방법은 간단하면서도 매우 효율적인 결과를 얻을 수 있다. 또 다른 방법으로는 co-occurrence와 rsv(유사도 값)을 사용하여 두 변수값을 적절히 조합하여 얻어진 최종 값을 랭킹 순위로 결정 할 수 있다. 단, 이방법은 아직 검증되지 않았으며 시도된 적도 없다.

그 외에 다른 변수들을 생각지 않고 각 필드별로 소팅된 결과를 단순히 순위로 결정하여 보여 줄 수 있다. 이것은 기본적으로 필요한 기능이며 상용 DB의 select 시 결과를 sort하는 것과 동일한 기능을 한다.

[본문링크] 모델링

[1]

코멘트(이글의 트랙백 주소:/cafe/tb_receive.php?no=7343

작성자
비밀번호

SSISOCommunity

[이전]